گروه نرم افزاری شاپرک

تولید انواع وبسایت با توجه به نیاز شما

گروه نرم افزاری شاپرک ، در سال 1387 فعالیت خود را در زمینه طراحی وب آغاز نموده است. هم اکنون با سال ها تجربه ی موفق در زمینه وب آماده فراهم نمودن حضور پر قدرت شما در عرصه دنیای مجازی هستیم ...

اطلاعات بیشتر

seo - GoogleBot یا همان خزنده¬ی وب موتور جست و جوی گوگل

GoogleBot یا همان خزنده¬ی وب موتور جست و جوی گوگل
googleBot ربات خزندهی وب گوگل میباشد که صفحات را پیدا کرده ، بازیابی میکند و به اندیسگذار گوگل میدهد. تصور googleBot به عنوان یک عنکبوت کوچک که در فضای سایبری میخزد ساده میباشد. اما در حقیقت googleBot هرگز وب را پیمایش نمیکند و تا حد زیادی شبیه به مرورگر وب عمل میکند. به این صورت که برای بازیابی یک صفحه درخواستی را به یک سرویس دهندهی وب ارسال میکند ، کل صفحه را دانلود کرده و آن را به یک اندیس گذار تحویل میدهد.

البته googleBot درخواست واکشی یک صفحه را با سرعت بالاتری نسبت به مرورگر شما انجام میدهد. در واقع googleBot میتواند هزاران صفحهی مختلف را به طور هم زمان درخواست کند.

برای اجتناب از افزایش بار روی سرویس دهندهی وب یا جلوگیری از درخواست بیش از حد کاربران ، googleBot عمداً در خواست کردن از سرویس دهندهی وب را با سرعت کم تری نسبت به توان سرویس دهنده انجام میدهد. این اصل به عنوان اصل احترام در میان خزندههای وب شناخته شده است. یعنی خزندهها باید این اصل اخلاقی را رعایت کنند و سعی نکنند با درخواستهای بیش از حد و پی در پی سرویس دهنده را از پای درآورند.

GoogleBot صفحات را به دو روش پیدا میکند :

1. از طریق فرم اضافه کردن URL که در آدرس www.google.com/addurl.html قرار دارد. URL را در این فرم اضافه میکنید.

2. از طریق پیدا کردن URL با خزیدن در وب یا همان پیمایش وب

شکل (1-1) فرم Add URL گوگل

متاسفانه اسپم سازها میدانند چگونه روباتهای خودکاری برای بمباران کردن فرم addURL با میلیونها URL که به تبلیغات تجاری اشاره دارند ، ایجاد کنند. گوگل URL های مشکوکی را که به نظر میآید میخواهند کاربر را با به کار گرفتن تاک تیکهایی نظیر گذاشتن متن یا پیوند پنهان در صفحات ، پر کردن یک صفحه با اطلاعات نامرتبط با موضوع اصلی صفحه^{^[1]} ، پنهان کردن ، استفاده از هدایت کردن عمدی کاربر به صفحهی دیگر ، ایجاد درگاه ، دامنه یا زیر دامنه با محتویات اساساً یک سان ، ارسال پرس و جوهای اتوماتیک به گوگل و پیوند دادن به همسایههای بد ، فریب دهند را رد میکند. پس فرم اضافه کردن URL یک را برای آزمایش دارد : چند تا کلمهی موج دار را برای فریب دادن حدس زنندههای کلمهی خودکار نمایش میدهد. از شما میخواهد تا کلماتی که میبینید را وارد کنید. این کار برای به دام انداختن روباتهای اسپم میباشد.

هنگامی که GoogleBot یک صفحه را بازیابی میکند همهی پیوندهای داخل آن صفحه را جدا کرده و آنها را به یک صف برای ادامهی پیمایش اضافه میکند. GoogleBot سعی میکند با اسپمهای کوچک برخورد کند ، چون بیشتر طراحان وب به سایتهایی پیوند میدهند که تصور میکنند صفحات آنها کیفیت بالایی دارند.

با جمع کردن پیوندها از هر صفحه ای که با آن روبه رو میشوند ، GoogleBot خیلی سریع لیستی از پیوندهایی که میتوانند بخش عظیمی از وب را پوشش دهند ، به دست میآورد. این روش به عنوان پیمایش عمیق شناخته میشود که اجازه میدهد GoogleBot درون سایتهای مختلف عمیقاً کاوش کند.

به خاطر مقیاس عظیمشان خزندههای عمقی میتوانند تقریباً به همهی صفحات دسترسی پیدا کنند. چون وب بسیار عظیم است ، این عمل زمانبر بوده و ممکن است بعضی صفحات وب ماهی یک بار پیمایش شوند. تابع آن هم ساده است.

GoogleBot باید طوری برنامه ریزی شود تا بتواند چند چالش را مدیریت کند :

1. چون GoogleBot به طور هم زمان برای بازیابی هزاران صفحه درخواست میفرستد ، صف URL ها باید دائما با URL هایی که قبلا در اندیس گوگل بوده اند مقایسه شود و URL های یکسان از صف حذف میشوند تا خزنده یک صفحه را دو بار پیمایش نکند.

2. GooleBot باید مشخص کند چند وقت یک بار یک صفحه را دوباره بازدید کند. از طرفی اندیس گذاری مجدد صفحه ای که تغییر نکرده به نحوی باعث هدر دادن منابع میشود. از طرف دیگر گوگل باید صفحات تغییر کرده را برای به روز کردن نتایج ، دوباره اندیس گذاری کند. برای به روز نگه داشتن اندیس ، گوگل به طور متناوب صفحات معروفی که دائماً در تغییر هستند را با نرخی متناسب با اینکه چند وقت یک بار تغییر میکنند پیمایش میکند. چنین پیمایشی اندیس را به روز نگه میدارد و به عنوان پیمایش تازه شناخته شده است. صفحات روزنامهها روزانه و صفحات بازار سها م به دفعات بیشتر دانلود میشوند. البته پیمایش تازه نسبت به پیمایش عمقی صفحات کم تری را بر میگرداند.

ترکیب این دو پیمایش اجازه میدهد گوگل از منابع خود به صورت کارآمد استفاده کند و اندیس خود را تا حد منطقی به روز نگه دارد.